深度学习—— 1 引言

可爱可倾2024-06-252025-05-27

1 引言

1.1 机器学习中的关键组件

可以用来学习的数据（data）；
如何转换数据的模型（model）；
⼀个目标函数（objective function），用来量化模型的有效性；
调整模型参数以优化目标函数的算法（algorithm）。

1.2 各种机器学习问题

1.2.1 监督学习

监督学习（supervised learning）擅长在“给定输入特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。有时，即使标签是未知的，样本也可以指代输入特征。我们的目标是生成一个模型，能够将任何输入特征映射到标签（即预测）。

监督学习的学习过程一般可以分为三大步骤：

从已知大量数据样本中随机选取一个子集，为每个样本获取真实标签。这些输入和相应的标签一起构成了训练数据集；
选择有监督的学习算法，它将训练数据集作为输入，并输出一个“已完成学习的模型”；
将之前没有见过的样本特征放到这个“已完成学习的模型”中，使用模型的输出作为相应标签的预测。

具体如图1.1所示:

图1.1：监督学习

1.2.1.1 回归

当标签取任意数值时，我们称之为回归问题，即训练一个回归函数来输出一个数值。例如，给定一组房屋的特征，我们可以训练一个模型来预测房屋的价格。回归问题的常见损失函数为平方误差。

1.2.1.2 分类

分类问题希望模型能够预测样本属于哪个类别。例如，给定一组猫和狗的图片，我们可以训练一个模型来预测图片中是猫还是狗。分类问题的常见损失函数为交叉熵。

1.2.1.3 标记问题

类似于多标签分类，比如识别一张图中所有的物体并给出标记。

1.2.1.4 搜索

在信息检索领域，我们希望对一组项目进行排序。以网络搜索为例，目标不是简单的“查询（query）-网页（page）”分类，而是在海量搜索结果中找到用户最需要的那部分。可能的解决方案是首先为集合中的每个元素分配相应的相关性分数，然后检索评级最高的元素。

1.2.1.5 推荐系统

目标是向特定用户进行“个性化”推荐

1.2.1.6 序列学习

如果输入是连续的，模型可能就需要拥有“记忆”功能。因为预测后者需要前者的信息，比如语音识别，机器翻译等。

1.2.2 无监督学习

聚类（clustering）问题：没有标签的情况下，给数据分类。
主成分分析（principal component analysis）问题：我们能否找到少量的参数来准确地捕捉数据的线性相关属性？比如，一个球的运动轨迹可以用球的速度、直径和质量来描述。
因果关系（causality）和概率图模型（probabilistic graphical models）问题：我们能否描述观察到的许多数据的根本原因？例如，如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据，我们能否简单地根据经验数据发现它们之间的关系？
生成对抗性网络（generative adversarial networks）：为我们提供一种合成数据的方法，甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试。

1.2.3 与环境互动

到目前为止，不管是监督学习还是无监督学习，我们都会预先获取大量数据，然后启动模型，不再与环境交互。这里所有学习都是在算法与环境断开后进行的，被称为离线学习。

1.2.4 强化学习

智能体（agent）在一系列的时间步骤上与环境交互。在每个特定时间点，智能体从环境接收一些观察（observation），并且必须选择一个动作（action），然后通过某种机制将其传输回环境，最后智能体从环境中获得奖励（reward）。此后新一轮循环开始，智能体接收后续观察，并选择后续操作，依此类推。强化学习的过程在图1.2中进行了说明。请注意，强化学习的目标是产生一个好的策略（policy）。强化学习智能体选择的“动作”受策略控制，即一个从环境观察映射到行动的功能。